【瀚海数据说】关于汉字的探讨
第107期
作者是拥有麻省理工物理学博士学位的中文专家。 90年代中曾经编写“下里巴人”PC中文编辑软件, 蜚声海外(用过者请留言)。严博士对中文语言有深刻的理解和独到的见解,现在依然在自然语言处理NLP行业耕耘,专攻美国法律资料的计算机分析,是业内不可多得的专家。本文比较了中文象形文字和西方拼音文字的特点,中文西文各有千秋。这是一篇二十年前文章,首发于华夏文摘。在人工智能自然语言机器处理的热潮中,仍具有现实意义。
汉字,是世界上最古老的活文字。它,记载了我们的繁荣昌盛,也记载了我们的耻辱悲伤。今天,随着计算机的迅速普及,汉字面临着空前的挑战。很多人开始怀疑汉字是否适应现代社会的需要。常有人问笔者,汉字是不是比拼音文字差?
其实,对汉字的怀疑并不是现在才有的。一百年前,中华民族陷入了空前的灾难,国难当头,亡国无日。一大批知识分子怀着强烈的危机感和爱国心,寻找着中国落后挨打的根源。他们找到了腐朽没落的清政府,找到了孔孟之道,也找到了中国文化的基本载体——汉字。钱玄同1918年在“论中国今后文字问题”一文中说,“中国文字,论其字形,则非拼音,而为象形文字的末流,不便于识,不便于写;论其字意,则意义含糊,文法极不精密;论其在今日学问上之应用,则新理、新事、新物之名词,一无所有;论其过去之历史,则千分之九百九十九为记载孔门学说及道教妖言之记号…。欲使中国不亡,欲使中国民族为二十世纪文明之民族,必以非孔学、灭道教为根本之解决,而废记载孔门学说及道教妖言之汉文,尤为根本解决之根本解决。”吴雅晖在“新世纪”第40号上说,“中国文字,迟早必废”。胡适和陈独秀在钱、吴的文章发表后,立刻表示赞同。胡适说:“我以为中国将来应该有拼音的文字。但是文言中单音太多,决不能变成拼音文字。所以必需先用白话文字来代替文言的文字,然后把白话的文字变成拼音的文字”。陈独秀说:“……惟有先废汉文,且存汉语。而改用罗马字母书之。”在这群知识分子的积极推动下,一场轰轰烈烈的文改运动从大力倡导白话文开始,到汉语拼音方案和简化字的颁布结束,持续了整整五十年。然而,文改先驱的最终理想——以拼音文字彻底取代汉字,却依然遥遥无期。
文字改革,尤其是用拼音文字全面取代汉字这样的改革,会对整个社会产生非常深远的影响。在作任何决策之前,我们首先要对汉字,对汉字与字母文字的差别有一个全面的、透彻的认识。本文从过去的有关争论中几个较少涉及的侧面探讨中文的特点。
一、中文是否真的难学?
一百年来,中文的拼音化之所以成了许多人孜孜以求的目标,一个重要原因是中文“难学”。文改先驱卢戆章就认为拼音文字“无师能自读”,较学习方块字中文“省费十余载之光阴”。
让我们首先看看事实。在同样的十年制或十二年制教育下,中国学生的质量丝毫不比美国(或任何使用拼音文字的国家)相当家庭背景或社会背景的学生差。学拼音文字的不能无师自通,学中文的也没有多费十余载光阴。
明明中国学生并不比外国学生差,为什么会有这么多人认为汉字相较于拼音文字“非常繁难”?要回答这个问题,我们先看一看拼音文字的优越性是什么。
对于理想的拼音文字,知道了发音,就知道了书写,看到了书写,就知道了发音。之所以如此是因为理想的拼音文字的有两个特点:第一,发音与字形一一对应,语言和文字二者中只有一个独立变量。第二,字形又分解为几十个声母和韵母,人们只需要掌握这些声母、韵母和少量组合规则。相比之下,汉字与汉语的关系就没有这么简单,首先是一音多字(极少量一字多音),其次是字形一般不能分解为声母韵母加少量拼音规则。建立音与形的对应关系需要较多的记忆。
我们大家都有这样的亲身经历。小学时,最费心血的是认字和写字。所谓认字,很大程度上就是知道并记住这个字的发音。对于理想拼音文字来说,这个问题就简单多了。这样,我们的问题就变成了:既然拼音文字有如此明显的优越性,为什么中国学生并不比外国学生明显地差?
实际上,对于初小教育和成人扫盲,拼音文字总是见效快,这已经被无数试验证明。如果我们的教育的最终目标就是初级扫盲的话,拼音字母是再好不过的了。从民国初年到五十年代,文改运动之所以如此有声有色,一个重要原因,是当时中国人口中的大多数是文盲,人们很自然地以扫盲之难易来衡量文字之优劣,从而得出拼音文字优于汉字的结论。
一个人在学习文字之前,一般都有了一定的语言知识,对于记载已经知道的语言,拼音文字是比汉字容易。然而,一个文盲在掌握了拼音字母和拼音规则后,是否就能写象样的总结报告、经验介绍、技术资料了呢?答案是否定的。一个文盲再能说会道,他所知道的还是口头语言,这种语言一般只适用于少数人的交谈,要舞文弄墨还需要学会书面语言。因此,要比较拼音文字和方块汉字,就要考察书面文字的学习效率。
中国学生一般从四年级开始进入大量扩张词汇的阶段。也就是在这个阶段里,中国学生的语文能力迅速地赶了上来。五、六年级的小学生就可以去啃几十万字的大部头了。令使用字母文字的学生所望尘莫及的是,连啃几十本小说的过程可以是一个不看词典,不问老师的过程。
中文与各种自然存在的拼音文字的共同差别,是中文的高度会意性。举一个典型的例子:
中文
牛
公牛
母牛
小牛
牛肉
小牛肉
英文
cattle
ox,bull
cow
calf
beef
veal
具体的例子当然都有历史的原因,但总体来讲,中文比英文会意度高是毫无疑问的。
会意度高有利于迅速扩展词汇量,使得我们能够迅速增强阅读能力,补回了开始学字多花的时间。因此,综合看来,中文对于高小及以后的学生来说,比现有的主要拼音文字只易不难。(会意度高也有利于口头语言的学习,只是书面语言对词汇量的要求更大)。
原则上,拼音文字也可以象中文一样,做到高度会意化。之所以很多拼音文字都不这样做,是因为还有其他的考虑,下一节将探讨这个问题。有兴趣的读者不访设想一种高度会意化的拼音文字,看看会遇到些什么问题。
二、中文为什么会意度高?
如果你随便问一个人,“qing1”是什么意思,他一定会问你:是哪个“qing1”。因为发音为“qing1”的有清、青、轻、倾、卿、氢,等等,每一个字的意思和用法都不一样。这样一来,中文就没有拼音文字的发音和字形一一对应的简单性。可以说,这么多的同音字是汉字招来种种责难的祸根。以如此高昂的代价,我们换取了什么呢?
我们换取了中文的高度会意性。
中文基本上是一种拼意文字。所谓拼意,是指词汇由具有固定意义(稳定且较小涵义域)的词根构成。拼意的概念与拼音的概念是完全对等的。对于中文,这些词根主要是单字。
有些人认为中文的会意性高是件坏事。他们的理由是,会意有时会会偏了意,只有查词典才能保证准确地掌握词语的意思。这种说法夸大了词典的作用。在绝大多数情况下,词典是无法描述词的完整涵义的。如果词典真有那样神奇的功用的话,人们只要学习词典就能读书作文了。词典只是提供一个零级近似,一个词的完整涵义是在反复的阅读和使用中逐步掌握的。中文的所谓会意,实际上是通过词根组合提供一个零级近似,这个零级近似虽然与词典所提供的可能有所不同,但它同样可以大大加快进一步逼近的过程,效果与词典是一样的。当然,凡事总有例外,但无妨大局。(最近从台湾人口中学会了两个词,“推展”和“情势”,没有查字典,也没有问人,一听就学会了。)
有趣的是,拼音文字的使用者未必真的老查词典。最近我问了几个美国年轻人,问他们看到生词时怎么办,他们告诉我一般都根据上下文猜,无关大局就跳过去。查词典也是一种代价,人总是在无意识地优化。
中文有一个拼音文字几乎没有的成词途径。大家知道,拼音文字必须分词书写。在分词书写的状态下,几个音节连在一起写就属于同一词,不连在一起写就不是同一词。而中文不分词写,这样允许各种较短的语法合理结构在反复使用中逐步词化。这样产生的词总是有高度的会意性。你说“吃饭”、“看病”、“搬家”是动宾结构还是词?也正因为如此,对中文搞一刀切的“正词法”是有害的。
三、方块字与拼音文字的视觉差异
前面的讨论,是基于拼音文字与中文(白话文)的一个共同点加三个大差别。这个共同点是汉字与拼音文字一样,是记录语言的文字,并不是表达意思的图画。这三大差别是:第一,对于每一个音节(声韵搭配),中文有多个图像表示(即同音字),而理想的拼音文字只有一个。第二,中文表示音节的图像(汉字)并不直接标明如何发音,而理想拼音文字直接标明。第三,汉字采用笔划二维排列,理想拼音文字采用字母一维排列。(这三点实际上可以有很多种等价的描述形式,不同描述形式可以突出不同的侧面)。
下面我们将逐个分析这些差别所带来的视觉差异。
对于第一个差别(一音多字),我们前面已提到它助长了中文的拼意化。为探讨其视觉后果,我们可以设想从现有汉字出发,造一个一字一音(但不是声韵拼音)的“白字文字”,即在每一组同音字中,挑一个最简单的为代表。这样一来,表达汉语1300个字就够了。用这样的文字记录汉语,我们可以得到类似这样的句字:“在个方面的协住下,它到住名穴抚寻回讲作,江自几的之十传寿给厅众”。
仔细考查这种白字文字,我们可以发现一个问题,这就是要猜出一个字的大致意思,必须分析这个字周围好多个字(包括此字自己在内约为6个字),不容易一目了然。也就是说,阅读时所需的“分析长度”相对于现在的采用同音字的汉字形式增加了。此白字文字的分析长度约为6.0字,现行汉字的分析长度约为1.7字。
为能用统一的标准分析字母文字,我们用信息分布的纵横比来重新定义分析长度。对于汉字,每个字可以看做为一个信息纵横分布对称的单元。对于字母文字,每个字母是一个纵横对称单元。按此定义,白字文字的分析长度约为6.0,中文约为1.7。字母文字的分析长度就是要知道一个字母所处邻域的大致意思所需要看的字母数。
现在考虑第二和第三个差别。如果我们用理想的拼音文字取代汉字,即用声韵母拼音再加声调来拼写汉语,则掌握发音所要学的就进一步从白字文字的一千三百个字降到几十个声母、韵母和声调了。
这样的拼音文字的分析长度如果以音节来算的话,应等于白字文字,如果以空间长度来算的话,则大于或等于白字文字,取决于字母与声母、韵母的对应关系。按现行汉语拼音方案,每个字约需4.5个字母(声调算0.5个),这就会导致分析长度等于27。这是一种几乎无法阅读的文字。采用分词书写,则分析长度约为9,这原则上可以阅读,但比起现行中文来说,还是相差很多。那种一目数行的感觉是不可能有了。英文的分析长度约为6(5个字母加一个空格)。中文之所以可以不分词书写,就是得益于分析长度短。
由于人脑对小视角视觉信息的本征分析能力对于上下左右是对称的,分析长度越大的文字要求越复杂的人脑分析程序。而复杂的程序不仅建立困难,而且灵活性差。这一点可以从两个事实上得到证实。一个是少年儿童中诵读困难(dyslexia)的发生率,中国是最低的,使用字母文字的国家约为中国的十倍。另一个是一个读惯了从左向右横排汉字的人,只要很短时间就能适应竖排或从右向左横排的汉字。字母文字就十分困难。
四、汉字与汉语的信息量的对称性
有人觉得,众多的同音字使中文的信息量超过了汉语的信息量,文字应该是语言的忠实记录,因此应该增加汉语或降低汉字的信息量。
其实,拼音文字也不是语言的忠实记录。声母和韵母只规定了一个字的基本发音骨架,人在讲话时还加入了极大量的辅助信息来影响人的听觉效果。同样一段文字,从不同的人口中出来会有完全不同的效果。这些辅助信息虽然是现有任何文字都无法表达的,但每一个政治家、推销员都非常清楚它的重要性,每一个搞语音合成或识别的人也清楚地知道它的存在性和复杂性。
既然语言可以根据听觉的特点来优化听觉分析效果,文字也应可以根据视觉的特点来优化视觉分析效果。事实上,为了达到更好的视觉传输效果,人们采用了各种艺术字体,各种排版技巧,这些都是语言中没有的。中文不要求文字直接反映拼音,给提高视觉分析效果提供了更大的空间。从这个意义上说,汉字与汉语在信息量上比拼音文字有更好的对称性。
五、为什么拼音文字拼意性差?
原则上拼音文字也可以同时兼有拼意的能力,只要在音部以外在加一个意部就行了。但这样一来拼音文字的空间表达效率就更低了。会意能力高的拼音文字必然表达效率低,表达效率高的拼音文字必然会意能力低。中文以降低字形与发音之间的约束为代价,换取了高会意度和高表达效率的并存。现在你只要见到一本多文种的说明书,就会发现,中文的总是其中最短的。
六、为什么现实世界中没有理想语言?
中文不是理想拼意文字,英文不是理想拼音文字,世界上没有一个自然产生的文字接近理想文字。这不是偶然的。除了种种历史原因外,最根本的原因还在于所谓理想文字本来就不是最有效的文字。语言文字是一个多维问题,所谓理想文字,只是对两、三维作优化,整体并没有优化。在整体优化的状态下,没有任何一维是彻底优化了的。任何搞过多参量优化问题的人大概都知道这个道理。
七、其它
01
简化字
简化字与繁体字相比,有几个变化。一、横笔划相对密度减少,斜笔划相对比例上升,斜笔划虽依然少于横笔划,但较繁体接近多了。这有利于在减少笔划的同时,不降低字与字之间的形象差别从而不降低可辨性。二、一些同音字被一个字取代。这降低了同音字的意思分解。
02
语法
我们没有专门学习语法,但这并不等于中文没有严密的语法。英文可教的语法只是实际语法的极小一个部分。实际上每个词有每个词的语法。对中文的所谓“文法极不精密”的指控,实际上是对自然语言的语法的复杂性缺乏足够认识的表现。语言文字并不是越简单越好,其自然发展表明,“高效”始终是人们追求的主要目标。
03
汉字的计算机输入
与字母文字相比,汉字没有简单直接的小键盘输入法。目前采用如下几种方法:⒈编码;⒉拼音;⒊语音;⒋手写。编码法虽然需要记忆,但综合考虑,并不是那么可怕,比起学习汉字来,还是简单多了,输入速度可以达到或超过字母文字,且不需要什么高技术。拼音法虽然遇到汉字同音字多的麻烦,但以词或句为单位的拼音输入法已经可以实用。要让拼音法达到字母文字的输入速度,还必须有技术上的突破,使得整句拼音的猜字正确率不低于百分之九十八。这一目标估计可以在今后十到二十年内达到。语音输入本质上跟拼音输入没有太大两样。汉字的手写体输入比拼音文字容易,现在已经进入实用,走在字母文字的前面。
总之,汉字的计算机输入虽然复杂,但并不是不可逾越的障碍。
八、总结
本文的论点大多是建立在初步分析和感觉基础上,还不具备充分的说服力。笔者仅想通过本文说明,文字是个多侧面的东西,要对所有侧面进行综合评价不是件容易的事。文字形式各有千秋,没有绝对的好坏,在某一时期的综合优劣取决于这一时期内的技术条件、人民的基本教育水平、平均寿命、使用习惯等许多因素。我们不能简单地根据某个侧面来下结论。
一个落后民族的文字永远是不方便的,不管是拼音的还是拼意的。
中国科技大学近代物理系七七级,MIT物理系博士。曾任硅谷工程师协会会长。1989年,编写了中文文字处理软件“下里巴人”,可以整句拼音输入。90年起从事手写文字识别,是92年NIST竞赛手写数字识别获胜团队成员。长期在NLP领域的工作,目前从事法律资料的文本信息挖掘。育有三子,热爱登山,居美西俄勒冈。
编辑:牟志坚796 王雅薇14MBA
【瀚海数据说】朱松纯访谈录:初探计算机视觉的三个源头及人工智能
【瀚海数据说】浅谈人工智能:现状、任务、构架与统一|正本清源
欢迎点赞、留言、打赏、投稿、和分享转发! 欢迎向我们推荐校友原创文章和主题分享嘉宾。